はじめに 久しく CUDA プログラミングもしていないなと思いつつ、久々に Wiki で RTX5090 などのスペック眺めてたら、凄いことになっているなと思ったので自分への備忘録も兼ねて記事にしておきます。 先日書いた「続・FPGAに対する誤解」や「なぜGPUは高性能なのか」を少し補完するものにもなるかと思います。 RTX4090 のスペック RTX4090 と RTX5090 のざっくりと重要な数字だけ拾って換算してみました。 下記のような感じでしょうか。 RTX 4090 RTX 5090 SM数 128 170 CUDAコア数 16,384 21,760 レジスタ数 8,388,608 11,141,120 最大スレッド数 262,144 348,160 1 つの SM に最大で 2048個のアクティブスレッド(64 WARP)を収容することができるようです。 またこの世代では 1